Telegram Group & Telegram Channel
معماری تماما MLP برای پردازش تصویر

پست امروز درباره یک معماری ساده است که همین دو روز پیش مقاله‌اش منتشر شده. این معماری برای تسک دسته‌بندی تصاویر ارائه شده و بر خلاف شبکه‌های نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم می‌کنه، سپس بعد از عبور دادن این پچ‌ها از لایه‌ی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکه‌ها، اونها رو از N تا لایه به اسم MixerLayer می‌گذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویر‌ها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکه‌ها درست می‌کنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچر‌های یک تکه درست می‌کنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایش‌های مختلف پیش‌آزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکه‌های مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکه‌ها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمی‌انگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.

مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که می‌تونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk

لینک مقاله:
https://arxiv.org/abs/2105.01601v1

#read
#paper
#watch

@nlp_stuff



tg-me.com/nlp_stuff/168
Create:
Last Update:

معماری تماما MLP برای پردازش تصویر

پست امروز درباره یک معماری ساده است که همین دو روز پیش مقاله‌اش منتشر شده. این معماری برای تسک دسته‌بندی تصاویر ارائه شده و بر خلاف شبکه‌های نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم می‌کنه، سپس بعد از عبور دادن این پچ‌ها از لایه‌ی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکه‌ها، اونها رو از N تا لایه به اسم MixerLayer می‌گذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویر‌ها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکه‌ها درست می‌کنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچر‌های یک تکه درست می‌کنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایش‌های مختلف پیش‌آزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکه‌های مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکه‌ها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمی‌انگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.

مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که می‌تونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk

لینک مقاله:
https://arxiv.org/abs/2105.01601v1

#read
#paper
#watch

@nlp_stuff

BY NLP stuff




Share with your friend now:
tg-me.com/nlp_stuff/168

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

If riding a bucking bronco is your idea of fun, you’re going to love what the stock market has in store. Consider this past week’s ride a preview.The week’s action didn’t look like much, if you didn’t know better. The Dow Jones Industrial Average rose 213.12 points or 0.6%, while the S&P 500 advanced 0.5%, and the Nasdaq Composite ended little changed.

NLP stuff from it


Telegram NLP stuff
FROM USA